ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ. ОБРОБКА ОКРЕМИХ СЛІВ (токенізація та нормалізація).. Методичні вказівки до лабораторної роботи з Комп’ютерна лінгвістика. Робота № 400187

Перехід до торгівельного партнера Binance

ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ. ОБРОБКА ОКРЕМИХ СЛІВ (токенізація та нормалізація).

Інформація про навчальний заклад

ВУЗ:

Національний університет Львівська політехніка

Інститут:

Не вказано

Факультет:

Не вказано

Кафедра:

Системи автоматизованого проектуваня

Інформація про роботу

Рік:

2005

Тип роботи:

Методичні вказівки до лабораторної роботи

Предмет:

Комп’ютерна лінгвістика

Завантажити

Частина тексту файла

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ “ЛЬВІВСЬКА ПОЛІТЕХНІКА” ІНСТИТУТ КОМП’ЮТЕРНИХ НАУК ТА ІНФОРМАЦІЙНИХ ТЕХНОЛОГІЙ Кафедра “Системи автоматизованого проектування” ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ. ОБРОБКА ОКРЕМИХ СЛІВ (токенізація та нормалізація). Методичні вказівки до лабораторної роботи № 3 з дисципліни “Комп’ютерна лінгвістика” для студентів спеціальності 7.030.505 “Прикладна лінгвістика” та магістрів за фахом 8.030.505 “Прикладна лінгвістика”. Затверджено на засіданні кафедри “Системи автоматизованого проектування” Протокол № 8 від 21.XI.2005 р. на засіданні методичної ради ІКНІ Протокол № 4-05/06 від 1.XII.2005 р. ВАК № 1769 від 12.XII.2005 р. Львів-2005 ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ. ОБРОБКА ОКРЕМИХ СЛІВ (токенізація та нормалізація). Методичні вказівки до лабораторної роботи № 3 з дисципліни “Комп’ютерна лінгвістика” для студентів спеціальності 7.030.505 “Прикладна лінгвістика” та магістрів за фахом 8.030.505 “Прикладна лінгвістика” для стаціонарної та заочної форм навчання/Укл. А.Б.Романюк. - Львів: Національний університет ”Львівська політехніка”, 2005. - 24с. Укладачі: Романюк А. Б., канд. техн. наук, ст. викладач Відповідальний за випуск: Лобур М. В., доктор технічних наук, професор Рецензенти: Каркульовський В. І., канд. техн. наук, доцент Шуневич Б.І., канд. філол. наук, доцент. МЕТА РОБОТА Вивчення основ програмування на мові Python. Ознайомлення з токенізацією та нормалізацією. КОРОТКІ ТЕОРЕТИЧНІ ВІДОМОСТІ Мова (мовлення) може бути розділена на частини різного розміру: починаючи від морфем і до параграфів. Ця лабораторна робота присвячена словам. Це дуже важливий рівень опрацювання текстів природною мовою (NLP). Тільки що вважати словом і як вони повинні бути представити в РС? Це просте питання, але проблеми у самому визначенні слова і його представленні залишаються актуальним. В лабораторній роботі буде розглянуто питання розділення тексту на слова, відмінностей між двома видами слів в текстах (token, type), доступу до джерел текстових даних, включаючи файли, веб-сторінки, лінгвістичні корпуси, які використовує Python і NLTK, а також стемінг і нормалізація. 1.1 Tokens, Types і тексти В одній з попередніх лабораторних робіт розглядався приклад, яким чином стрічка може бути перетворена (розділена) на список слів. Використовуючи функцію len() можна визначити кількість елементів списку – визначити кількість слів: Цей процес сегментування стрічки символів на слова відомий як токенізація. Токенізація – початковий етап всього того, що відбувається з текстом при його автоматичному опрацюванні. Розглянемо токенізацію більш докладно. З попередніх лабораторних робіт відомо, як зібрати список унікальних елементів стрічки, використовуючи вбудовану функцію Python set ( ) для видалення дублікатів. Відповідаючи на запитання скільки слів у sentence, - отримано два різні значення в залежності від того, враховувалося дублювання чи ні. Отже, „слово” в цих двох прикладах має різні значення. Щоб розрізнити ці значення вводяться поняття token (словоформа) і type (тип). Слово token є індивідуальний окремий випадок вживання слова у конкретному визначеному контексті, воно існує в часі і просторі. Слово type є більш абстрактним, це те, коли ми говоримо, що „the” зустрічається у sentence три рази „те саме слово”(унікальні слова тексту). Відмінність цих значень слова ілюструє наступний фрагмент Python. Оператор = = перевіряє, чи є два вирази однакові, перевіряє ідентичність стрічок. Це поняття ідентичності, яке було прийняте, коли використовувалась функція set ( ). На відміну від цього оператор is перевіряє чи збережені два об’єкти в тому самому місці пам’яті і він визначає token-ідентичність. Коли використовується метод split() для перетворення стрічки в список слів то такий метод токенізації о...

Методичні вказівки до лабораторної роботи Комп’ютерна лінгвістика

01.01.1970 03:01

Коментарі

Ви не можете залишити коментар. Для цього, будь ласка, або зареєструйтесь.

Завантаження файлу

Якщо Ви маєте на своєму комп'ютері файли, пов'язані з навчанням( розрахункові, лабораторні, практичні, контрольні роботи та інше...), і Вам не шкода ними поділитись - то скористайтесь формою для завантаження файлу, попередньо заархівувавши все в архів .rar або .zip розміром до 100мб, і до нього невдовзі отримають доступ студенти всієї України! Ви отримаєте грошову винагороду в кінці місяця, якщо станете одним з трьох переможців!

поділитись

Стань активним учасником руху antibotan!
Поділись актуальною інформацією,
і отримай привілеї у користуванні архівом! Детальніше

Які роботи дозволено додавати до архіву?

Новини

Кілька варіантів заощадити на навчанні в Польщі

26.02.2019 12:38

Будь-який абітурієнт може поставити перед собою мету вчитися в Польщі. Для тих, кого зупиняє фінансове питання, важливо знати, що існує кілька варіантів навчання в Польщі для українців безкоштовно.